*Read this in [English](README_en.md).*

# 10M中文数据集

**10M**中文数据集包含数个由BELLE项目产生的不同指令类型、不同领域的子集。

目前正在逐步整理中，将会逐渐发布。

## 字段

各子集使用统一的字段

```json
instruction: 指令
input: 输入
output: 输出
```

## 局限性和使用限制

我们要求开发者仅将我们开源的代码、数据、模型及后续衍生物用于研究目的，不得用于商业，以及其他会对社会带来危害的用途。

由于数据是由*ChatGPT*生成的，未经严格验证，在事实性和其他方面还存在一些不足。因此，在使用此数据集时，请务必注意甄别。

本数据集不代表任何一方的立场、利益或想法，无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷，本项目的开发者不承担任何责任。

## 子集

### [School Math](https://huggingface.co/datasets/BelleGroup/school_math_0.25M)

包含约25万条由BELLE项目生成的中文数学题数据，包含解题过程。

注意：此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误。使用过程中请注意这一点。

样例：

<details>

  ```json
  {
    "instruction": "题目：小华手里有一个装满糖果的袋子，共有12个，小明想知道里面有多少颗糖果，于是他问小华：“你手里的糖果袋子里有偶数个糖果吗？”小华回答：“有，而且多于10颗。”请问小华手里的糖果袋子里最少有几颗糖果？",
    "input": "",
    "output": "\n由题目可知：小华手里的糖果袋子里有偶数个糖果；\n又知道小华手里的糖果袋子里有多于10颗糖果。\n因为糖果数为偶数，多于10颗，所以糖果数最小必须是12。\n所以小华手里的糖果袋子里最少有12颗糖果。"
  }
  ```

</details>


### [Multiturn Chat](https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M)

包含约80万条由BELLE项目生成的*用户*与*助手*的多轮对话。。

注意：此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误。使用过程中请注意这一点。

**instruction**中包含多轮对话的上文内容，以*Human:*和*Assistant:*区分，**output**中包含当前*助手*角色的回答。

样例：

<details>

  ```json
  {
    "instruction": "Human:请根据题材「健身房」，写一篇800字的文章。\nAssistant:好的，以下是由我生成的800字「健身房」题材文章：\n在现代社会，人们越来越珍视健康和身材。健身房就是一个人们可以锻炼身体的场所，也是一个社交的场所。在健身房，人们可以通过器械训练，有氧运动和瑜伽等方式来达到健身的目的。\n对于喜欢力量训练的人来说，选择健身房的一个原因是因为那里的器械更加完备，可以满足训练的需求。当然，不仅仅是体力上的训练，健身房同样也是锻炼毅力和耐力的地方。因为每一次锻炼的过程都需要坚持和勇气。\n而对于那些想要减肥的人来说，健身房也是非常重要的。有氧运动比如慢跑，跳操，游泳等都是非常有效的减肥方式。而且因为健身房的压力比较大，所以很容易使人们保持锻炼的热情和动力。\n一些人则会选择瑜伽馆作为健身的场所，因为它们通常比较安静，能够让人们放松。瑜伽有纾解压力，提高柔韧性，强化肌肉的好处，而且更适合那些不喜欢高强度训练的人。\n总的来说，健身房和瑜伽馆是现代社会不可或缺的健身场所。无论您是力量训练爱好者，减肥追求者还是想要放松的人，您都可以在这里找到适合自己的锻炼方式。\nHuman:请从上文摘取三个句子进行打分。\nAssistant:",
    "input": "",
    "output": "好的。以下是我摘取的三个句子：\n1. \"在健身房，人们可以通过器械训练，有氧运动和瑜伽等方式来达到健身的目的。\"\n2. \"而对于那些想要减肥的人来说，健身房也是非常重要的。\"\n3. \"总的来说，健身房和瑜伽馆是现代社会不可或缺的健身场所。\"\n网页端评分界面还未准备好，不能在这里为你进行打分，请见谅。"
  }
  ```

</details>

### [Generated Chat](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M)

包含约40万条由BELLE项目生成的给定角色的多轮对话。

注意：此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误。使用过程中请注意这一点。

**instruction**中给定角色描述，**output**为生成的多轮对话。

样例：

<details>

  ```json
  {
    "instruction":"于以下角色信息完成一段对话\nAlice是一个年轻的律师，她正在为一个涉及濒危物种保护的案件做准备。Bob是一位当地的居民，他所在的社区经常受到该濒危物种的干扰。\n",
    "input": "",
    "output": "\nAlice: 你好Bob，我是濒危物种保护案的律师，很高兴见到你。我们前几天发给你的文件你看到了吗？\nBob: 看到了，你们说要禁止我们在该物种的常住地采集蘑菇，这很不公平。\nAlice: 保护濒危物种对整个生态系统都很重要，如果我们的举动损害了这个物种的生存，那么整个生态系统都将遭受损失。\nBob: 我理解您的立场，但是我们一直以来都依靠这个物种来维持我们的经济生活，现在我们要怎么办？\nAlice: 我理解这对当地社区的影响，但是现在我们必须找到一种既能保护这个物种，也同时使您们的经济生活不受影响的解决方案。你有任何想法吗？我们可以一起来想办法。\n"
  }
  ```

</details>

### [train_2M_CN](https://huggingface.co/datasets/BelleGroup/train_2M_CN)

包含约200万条由BELLE项目生成多样化的指令任务数据。

注意：此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误。使用过程中请注意这一点。

样例：

<details>

```json
{
  "instruction": "将以下三个句子组合成一个有意义的段落。\n狗是人类最好的朋友。它们非常聪明，可以进行各种活动。如果你喜欢散步，狗可以成为你一起散步的伙伴。",
  "input": "",
  "output": "狗是人类最好的朋友，它们非常聪明，可以进行各种活动。如果你喜欢散步，狗可以成为你一起散步的伙伴。出门散步是一种良好的锻炼方式，而有狗的陪伴会让散步变得更有趣，并且有狗在身边也能给你带来安全感。所以，拥有一只狗作为你的伙伴，可以帮助你变得更加积极主动和健康。"
}
```

</details>

### [train_3.5M_CN](https://huggingface.co/datasets/BelleGroup/train_3.5M_CN)

包含约350万条由BELLE项目生成多样化的指令任务数据。

注意：此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误，使用过程中请注意这一点。另外，此数据集包含单轮和多轮对话，我们修改了数据格式，使用时请注意。

样例：

<details>

```json
{
    "id":"66623028",
    "conversations":[
        {
            "from":"human",
            "value":"归纳介绍三种不同类型的电影题材"
        },
        {
            "from":"assistant",
            "value":"1. 动作片：动作片通常强调动作和战斗场面，故事情节紧凑，充满了紧张和兴奋的氛围。主角一般是具有超凡实力或特殊技能的英雄人物，往往会与反派角色进行一系列激烈的格斗，追逐和爆破等酷炫场面。例如《速度与激情》和《复仇者联盟》等。\n2. 爱情片：爱情片是以爱情为主题的电影，着重呈现角色之间的感情纠葛，展现了爱情的美好和悲壮。情节与角色之间的发展令人深思，增加了观众的感性体验。这种电影的故事情节主要以人类与人类之间的情感变化为主题。例如《泰坦尼克号》和《让子弹飞》等。\n3. 科幻片：科幻片是以未来科技和未知世界为主题的电影，通常包括时间旅行、外星人、虚拟现实、未来社会等各种奇幻的元素。这种电影描绘了一种比现实更加宏伟、更加神秘和惊奇的世界。例如《星际穿越》和《发条橙》等。"
        }
    ]
}
{
    "id":"18205437",
    "conversations":[
        {
            "from":"human",
            "value":"根据给定的食材，编写一道美食菜谱。\n鸡腿肉、蘑菇、洋葱"
        },
        {
            "from":"assistant",
            "value":"鸡肉炒蘑菇洋葱\n食材：\n- 鸡腿肉 400克，去骨去皮切成小块\n- 蘑菇 200克，切片\n- 洋葱 1个，切丝\n- 生姜 适量，切丝\n- 酱油 2勺\n- 料酒 1勺\n- 盐 适量\n- 白胡椒粉 适量\n- 植物油 适量\n做法：\n1. 在一个碗里放入切好的鸡腿肉块，加入酱油、料酒和适量的白胡椒粉，搅拌均匀，腌制10分钟。\n2. 热锅凉油，加入姜丝翻炒，放入腌好的鸡肉块翻炒至变色。\n3. 加入洋葱丝和蘑菇，翻炒2-3分钟至蘑菇变软。\n4. 加入适量的盐和少量的水，盖上锅盖焖煮5分钟直至鸡肉熟透。\n5. 最后翻炒几下，使汤汁变浓稠即可。\n温馨提示：\n1. 在腌制鸡肉时，如果想让肉质更嫩滑，可以加入少量的淀粉和蛋清。\n2. 可以根据个人口味加入其他调料，如蒜末、辣椒等。\n3. 洋葱和蘑菇可以用其他蔬菜代替，如青椒、胡萝卜等。"
        },
        {
            "from":"human",
            "value":"太好了，我会试着照着你教的做一次，但是我最近买了一部新相机，想让你推荐一些好的拍照地点。"
        },
        {
            "from":"assistant",
            "value":"当地的风景区、公园、景点等等都是比较适合拍照的地点。如果你想要一些特别的地方，可以考虑一些建筑群，街道巷子、咖啡馆、书店等具有文艺气息的地方。"
        },
        {
            "from":"human",
            "value":"嗯，这些地方都很不错，但是我还想找一些可以体验当地文化和风俗的地点，你有什么好的建议吗？"
        },
        {
            "from":"assistant",
            "value":"如果你想要更深入地了解当地文化和风俗，可以考虑参加一些游学活动，比如参观当地的博物馆、参加民俗节庆、尝试当地美食等等。此外，也可以去一些小城镇，感受那里的古朴风情。"
        }
    ]
}
```

</details>
